该内容已被发布者删除 该内容被自由微信恢复
文章于 2017年8月9日 被检测为删除。
查看原文
被用户删除
其他

扩增子图表解读3热图:差异菌、OTU及功能

2017-07-22 刘永鑫 宏基因组

欢迎点击「宏基因组」关注我们!专业干货每日准时推送!

作者: 刘永鑫
日期:2017-6-30
阅读时长:10min

背景介绍(Introduction)

宏基因组学

宏基因组学目前的主要研究方法包括:微生物培养组学、16S/ITS/18S扩增子、宏基因组、宏转录组、宏蛋白组和宏代谢组,其中以扩增子研究最为广泛。

目的意义

本系列文章将带领大家结合较新的16S扩增子相关文献,来理解宏基因组16S扩增子文章中常用图表种类、图中包括的基本信息,以及作者想表达的结果。

主要内容

本系列文章内容包括:箱线图、散点图、热图、火山图、曼哈顿图、维恩图、三元图和网络图等。

学习思路

  1. 罗列知识点,熟悉专业名词,弄个脸熟,即使理解不深刻起码在阅读中不会有抵触情绪;

  2. 结合具体文章读图,实战两三次,基本就是专业人士了。

将来在大家可以很好理解相关文章图表的基础上,希望对分析、统计和绘图相关技术有进一步学习的小伙伴请积极回复并留言吧。如果本系统文章阅读过万,想学分析的留言过百。我还将详细讲解扩增子分析、统计和绘图各步骤的分析实例和源代码,希望大家多多鼓励和支持。

声明:文章的解读仅代表个人理解和观点,有不足处,请读者积极留言批评指正,互相学习,共同进步。

知识点(Method)

热图

热图是使用颜色来展示数值矩阵的图形。通常还会结合行、列的聚类分析,以表达实验数据多方面的结果。
A heat map (or heatmap) is a graphical representation of data where the individual values contained in a matrix are represented as colors.
热图在生物学领域应该广泛,尤其在高通量测序的结果展示中很流行,如样品-基因表达,样品-OTU相对丰度矩阵非常适合采用热图呈现。

热图优点

因为人读数字需要思考和比较,而对颜色识别能力非常强,采用颜色的深浅代替数据表是非常高效的呈现方式,也便于从中挖掘规律。
热图在非常小的区域展示了大量的基因表达/细菌丰度数据,即可以快速比较组间的变化,同时还可以显示组内每个样品的的丰度,以及组内各样品间的重复情况。

热图数据的转换

如果使用原始相对丰度或表达值,范围通常为0-100或0-1000000,而大部分的OTU或基因较低,做出的图会使绝大数据的数量颜色处于低丰度区,很难发现规律;因此需要数据变换,常用的方法有两类:

  1. log2(x+1) , x为丰度或表达值
    为什么要原始值+1,是为了保证结果仍为正值,因为2的0次方为1;
    为什么要使用log变换,以log2为例,0-1000的表达范围,经变化为0-10的范围,颜色梯度范围更容易使人与数值建立对应关系。
    为什么常用log2对数变化,因为筛选差异的标准通常为两倍,log2对数变化后,每相差1的两个值都有两倍差异,选择目标很方便;有时也会根据具体情况,选择ln, log10等转换方式;

  2. Z-score标准化:
    标准分数(standard score)也叫z分数(z-score),是一个分数与平均数的差再除以标准差的过程。用公式表示为:z=(x-μ)/σ。其中x为某一具体分数,μ为平均数,σ为标准差。此种方法可以使有差异且稳定变化的两组明显区分为不同的颜色,但却丢失了原始相对丰度、差异倍数的信息。但由于结果比较美观,规律明显,使用较多。

常用热图绘制工具

最常用的是R语言的包,如heatmap, heatmap.2和 pheatmap等。
此外Excel, matlab也可以。
不想学语言的可以使用一些专门绘制工具,如HEMI,个人用过,绘图和聚类都很方便,但偶尔会崩溃,不知现在作者更新没有。

用R绘制热图的教程

网上教程很多,因为这个太常用。我推荐”生信宝典”最新发布的教程三步曲,从入门到精通。

  1. R语言学习 - 热图绘制 (heatmap)

  2. R语言学习 - 热图美化

  3. R语言学习 - 热图简化

看图实战(Result)

示例1. OTU相对丰度 - 样品

Castrillo, G., et al. (2017). Nature.
Fig. 2e
2017新出炉的Nature文章,Jeffery Dangl组作品。这篇文章分析拟南芥细菌组在低磷条件下参与磷吸收,有规律发现,有实验验证,绝对前沿的微生物组研究,正文每一个组图都相当于10分文章的工作量,专业而细致,推荐阅读。

图2有7个子图,信息量非常大,我只说其中的e图。
图2.e 重组菌体系在不同样品中各菌的相对丰度。

  1. 图中元素解释

  • X轴标签isolate上面的名称为实验用菌的编号;本实验为人工重组微生物组体系,标签为作者定义的菌编号。自然微生物组鉴定体系一般会聚类为OTU-1/2/3…样式编号;

  • 右侧Y轴标签为实验组的名称,共分两列:第一列为材料基因型名称,如Col-0, phf1等;第二列为条件,本实验中为磷浓度;两者组合为一个实验组,每个实验组每组均为6次生物学重复,其中接种起始混合液Inoculum有4次重复;

  • 左侧颜色图例Abundance(%),来表示图中颜色的深浅所对应的数值范围,即白色为0,由浅到深连续变化范围,其中刻度对应的颜色丰度为0.01%, 0.14%和2.71%,至最深红棕色;

  • 主图区中深浅的色块,代表每组样品每个菌相对丰度的值。

  1. 图表结果:展示人工重组菌(起始接种Inoculum浓度相近)在不同实验组中发展成细菌群落后的相对丰度,发现突变体中一些菌的相对丰度发生变化;

  2. 经验和技巧:一般OTU或菌的丰度间重复不是很好,尤其是自然样品丰度差异大,需要经过对数变换或做Z-score标准化;而本实验是重组体系,起始菌浓度相当,比较适合原始值直接绘制热图;此外,在扩增子研究中,实验个体间波动很大,一般热图呈现规律不明显,如上图,所以低水平文章很少用,一般只有顶级杂志敢用,尊重事实,尊重个体差异,相信统计上的差异。下面一篇文章也是如此。

附图注原文:
Figure 2 | A bacterial SynCom differentially colonizes PSR mutants. e, Heat map showing percent abundances of SynCom isolates (columns) in all samples (rows). Strain name colours correspond to phylum (bottom left). Within each block, samples are sorted by experiment. For each combination of genotype and Pi level, there are n = 6 biological replicates evenly distributed across two independent experiments, except for Inoculum for which there are n = 4 technical replicates evenly distributed across two independent experiments.

示例2. 热图+样品聚类展示菌相对丰度(log2%)

Lebeis, S. L., et al. (2015). Science
这篇文章也是Dangl组的,是最早植物人工重组菌群的文章,研究了植物水杨酸对微生物组的影响,开山之作值得阅读。

图2C. 热图展示丰度显著差异的菌在所有样品中的相对丰度(相对丰度百分数%经log2对数变换)

  1. 图中元素解读

  • 左侧聚类图为所有样品聚类的结果,左上角的图例代表三大类样品,紫、灰和绿它们分别代表接种菌、土壤和根样品,颜色标签在热图中第一列,用以区分样品组;

  • 右侧为图的主图区,展示左侧样品中对应筛选的14个差异丰度菌的相对丰度值,丰度值百分比采用log2转换来缩小数据范围,并按从小到大对应的颜色梯度为蓝、白、红,即越红越高,越蓝越低。对应的图例为下方左上角的Color Key;

  • 右侧正文区上方红上或蓝下箭头,代表这些菌的表达样式,为上调或下调,对应的图例为下方图例区的左下方(EC-enriched/depleted);

  • 右侧正文区下方菌的标签上还有颜色,对应最下面图例区的菌门信息;同时菌还继续分为两类,稳定定殖者(Robust Colonizers)和偶然或非定殖者(Sporadic or Non-Colonizers)。

  1. 图表结果:图中展示了人工重组的菌在接种后,也可以形成丰度各异的微生物群体,并与自然条件下很多样式保持一致。

  2. 图表结论或规律:受水杨酸调控差异表达的菌,可以在人工重组实验中得到验证。

  3. 图片优点:配色采用红白蓝,比较严肃;图中添加了聚类信息、分组信息和菌分类为信息,极大的增加了图片的信息和可读性。有些热图信息量大,标签太小或根本无标签导致理解困难,此图的做法值得学习。

附图注原文:
Fig. 2. A 38-member synthetic community recapitulates differentiated microbiome colonization.
(C) Hierarchical clustering and heat map showing percent
abundance (log2 scale) of selected isolates. Sample clustering splits by fraction (left) and EC samples grouping by biological replicate. Isolates are grouped by their presence in the majority of Col-0 EC samples (Robust colonizers) or absence in the majority of Col-0 EC samples (sporadic or non-colonizers). Isolates are color-coded to phyla as in Fig. 1. Isolates that were significantlymore abundant (red arrows) or less abundant (blue arrows) in EC with respect to bulk soil are denoted along the top.

Reference

  1. https://en.wikipedia.org/wiki/Heat_map

  2. http://www.360doc.com/content/14/1103/10/17553313_422108323.shtml

  3. https://jingyan.baidu.com/article/64d05a0240ec75de55f73bd8.html

  4. http://hemi.biocuckoo.org/

  5. Lebeis, S. L., et al. (2015). “Salicylic acid modulates colonization of the root microbiome by specific bacterial taxa.” Science 349(6250): 860-864.

  6. ZCastrillo, G., et al. (2017). “Root microbiota drive direct integration of phosphate stress and immunity.” Nature.

  7. http://baike.baidu.com/item/%E6%A0%87%E5%87%86%E5%88%86%E6%95%B0

  8. http://mp.weixin.qq.com/s/_9LKs6t6rcjzokF_0gneSA

  9. https://mp.weixin.qq.com/s/lKrhvYrwn93esC6MA3bHWw

  10. http://mp.weixin.qq.com/s/mNSkf1rjWTCtE1pIOuI2rA

想了解更多宏基因组、16S分析相关文章,

快关注“宏基因组”公众号,干货第一时间推送。

系统学习生物信息,快关注“生信宝典”,

那里有几千志同道合的小伙伴一起学习。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存